STAR ATTENTION: EFFICIENT LLM INFERENCE OVER LONG SEQUENCES

作者信息

Shantanu Acharya, Fei Jia, Boris Ginsburg

NVIDIA

链接:[2411.17116] Star Attention: Efficient LLM Inference over Long Sequences

摘要:

Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.

一句话总结概括

针对长文本的Attention分机器优化

Motivation

创新点或贡献

具体设计

阶段1:Prefill

image-20241208221804012

  1. Long Context被分为多个连续的块,比如C1,C2,C3
  2. 每个Block负责的Host都接收到C1的一个副本
  3. 每个Host生成对应的KV Cache(无跨Host通信)

image-20241209115728727

阶段2:Decode

image-20241208222138221

  1. 输入一个新的Query,传给该Req的各个Host
  2. 每个Host在每一层先做局部的Attention计算,然后最后一个Host(文本末端)做跨Host的集合Softmax,生成新的KV Cahce
  3. 直至最后一层,最后一个Host生成对应的Token

image-20241209115750933

对于所有文本:

image-20241208222719677

对于Context部分,黑色是所关注的区域

实验评估

  1. 和Ring Attention的评估

    image-20241209112759276

    长度越长,加速越明显

    精度下降也小于3%,甚至有时候精度更好

  2. 和Global Attention对比

    image-20241209113054861

    基本保持了>95%的准确率,甚至有时候优于baseline。在右下角的图中,作者表示下降如此明显的原因可能是因为生成格式的原因。

  3. Block size对准确率的影响

    image-20241209113457094

    image-20241209113622332

    block size越大,准确率越大,速度越慢。

    将seq分为四个block,可能可以在准确率和速度的trade-off中收益最好。按照实验的经验而言,对于超过128K的文本,则将block size固定为32k。对于Llama-3.1-70b这种大模型,则将block限制在16K。

  4. 五种BenchMark任务分析

    Single-NIAH, Multi-NIAH, Multi-Hop Tracing, Aggregation, and Question Answering (QA).

    image-20241209114403362

    这里实验都将seq分为4个block。Multi-Hop Tracing性能下降最大,这主要是因为host之间通信的信息不足。Aggregation(比如单词提取等任务)增长很大的原因是因为Star Attention将seq分为局部了,局部摘要能力更强了。

  5. 更改anchor block的位置和内容

    image-20241209115539189

  6. 更改anchor block的长度

    image-20241209115600451

    anchor block接近block长度,可以获得和global attention相似的结果。

背景

先前工作存在的问题概述

难点

补充背景

思考角度

我如何做这个问题

这个洞见可以引申出其他其他方法吗

迁移到长文本 Auto Scale out的情况

该洞见是否可以迁移到其他领域中

该工作有什么可能可以改进的地方

Q&A

results matching ""

    No results matching ""